這部分的內容改由數據科學家說明、教學,需要動腦筋理解
前面介紹了有關ML的策略,像是先從ML是什麼、它能解決什麼然後怎麼去與實務接軌,除去那些技巧與商業層面,若希望要讓ML成功,需要談論的是如何以一種廣泛(Inclusive)或我理解上是不會受太多偏見(Bias)影響的方式建構ML模型。
先談到偏見,偏見這件事光是從對鞋子的認知就開始產生了。
哪個是鞋子?最左邊的?中間的、右邊的?都是?
至少我們相信讓一群人去判斷的話,應該不會有統一的結論,既然我們無法有統一結論又要把這般知識教授給電腦,似乎開始會有點問題對吧?
interaction bias、latent bias、selection bias
既然我們是人類就無法將偏見從我們發展的科技中予以抽離。
好吧,那至少機器犯錯的時候總能用些方法使他盡可能避免吧? 混淆矩陣(Confusion Matrix)就登場了
以辨識人臉為目標則從實際上標註的結果跟預測的結果來分成4區:
是人臉猜人臉 -> True Positive
是人臉猜不是 -> False Negatives(Type II Error)
不是人臉猜是 -> False Negatives(Type I Error)
不是人臉猜不是 -> True Negatives
還蠻好理解的分佈,猜對就皆大歡喜沒有問題,但特別的就屬False類的分類,因為Type I、Type II的錯誤將實際影響我們希望ML模型表現的狀況,它們分別做為預測的需求時統計出來的結果是不完全相同的,trade-off也出現在這